想将连续变量转化为哑变量纳入回归模型,咋分组?
我们在前面用了2期的内容,向大家介绍了有关哑变量的知识,同时结合SPSS软件的应用,介绍了如何在不同的回归模型中设置哑变量。需要复习的同学可以戳这里:
细心的同学们会发现,我们在讲解哑变量时,主要针对的是原始变量本身即为分类变量的情况,不管是无序多分类还是有序多分类变量,在引入模型时可以按照统计需要转化为哑变量引入模型,并且通过SPSS即可实现对哑变量进行0或1的编码。
当然我们在前面的内容中也提到对于连续型变量,在引入回归模型时往往要考虑实际的临床意义,若直接带入原始的连续型变量,每变化一个单位水平所引起的因变量的变化效应是很微弱的。同时当我们无法很好地确定自变量和因变量之间的线性变化关系时,也需要考虑将连续型变量离散化,转化为哑变量带入模型。
那么提到连续型变量,应该如何有效的进行分组,将其转化为哑变量的形式呢?今天我们就来跟大家细数一下,在回归模型中连续型变量转化为哑变量的多种变化形式。
1、二分类分组
严格意义上,提到哑变量通常是指转化为多分类的变量,但在这里我们首先介绍二分类分组,将连续型变量按照某个切点转化为二分类变量,是因为二分类变量在某种意义上也是一种最为简单的哑变量形式。二分类变量有2个分类属性,我们选择其中一个分类作为参照(通常设置变量=0),则另一个分类自动作为比较组(通常设置变量=1)。
那么如何确定二分类分组的切点呢?通常情况下,为了保证以切点划分的两组研究对象,在样本量上能够尽量保持一致,我们可以以该自变量的中位数为切点进行分组,即按照中位水平分为高、低两组来进行比较;或者也可以按照临床实践中具有某种特殊意义的诊断切点作为分组标准,将研究人群分为有无此类疾病特点的两组来进行比较。
例如JACC期刊2016年发表的一篇文章[1],作者在构建多因素Cox回归模型时,将胆固醇外流能力(Cholesterol efflux)按照中位数水平为切点,转化为二分类变量带入到模型进行分析。结果显示,胆固醇外流能力高的人群与胆固醇外流能力低的人群相比,动脉粥样硬化性心血管疾病(ASCVD)的发生风险降低了65%(HR=0.35,95% CI为0.23-0.54)。
而对于另一个指标,冠状动脉钙化积分(CAC) ,作者以0作为分组切点,是从临床意义的角度考虑而进行的划分。在临床中,CAC=0表明冠状动脉没有发生钙化,CAC>0则表明发生钙化,CAC积分越高,钙化程度就越严重。因此在本例研究中,结果显示冠状动脉钙化 (CAC>0) 的人群与没有发生钙化(CAC=0)的人群相比,动脉粥样硬化性心血管疾病(ASCVD)的发生风险增加了1.19倍(HR=2.19,95% CI为1.22-3.93)。
2、等分位分组
将连续型变量进行二分类分组,这种方法固然简单易行,也便于理解,但是在有些情况下,比如我们想要更多地观察自变量与因变量之间复杂的变化关系,此时若仅分为二组,则会遗漏很多重要的信息,使得数据本身的价值没有得到更充分的利用。
因此,在借鉴二分类分组思想的基础上,我们可以对连续型变量进一步离散化,根据样本量和分析的需要,通常可以按照该变量的三分位、四分位或者五分位等切点来进行分组。
进行等分位分组,其优点在于不仅可以保证每一组的研究人群在样本量上能够保持相对一致,而且可以较为直观的反映自变量与因变量之间复杂的变化关系,为进一步探讨两者之间的关联性提供了一定的依据。
例如Am J Clin Nutr期刊2015年发表的一篇文章[2],研究人员将不同的营养素按照其摄入水平的5分位进行分组,并以摄入水平最低的1组作为参照。结果显示,随着水果纤维摄入水平的升高, 2型糖尿病发生的相对风险RR值分别为1、0.93、0.91、0.82、0.73(Model 1),RR值的变化呈现一种逐渐下降的趋势 (P-trend<0.0001),提示随着水果纤维摄入量的升高,研究对象发生2型糖尿病的风险逐渐降低。
3、等距分组
在进行等分位分组时,研究对象被均匀分组,基本上每一组研究人群的样本量大致相同,但是组与组之间的间距却很难保证是一致的。例如上述研究中,研究人员对水果纤维摄入水平进行5分位分组,每一组的中位数分别为1.45、2.55、3.55、4.69、6.68,相邻两组之间的间距是不相等的。
当我们需要探讨某个连续型自变量,在每增加固定间距的单位水平时,引起的因变量的变化效应,就可以将该自变量以一个设定好的固定间距,对其进行分组,然后再引入到模型中进行分析。
这样分组转换的好处在于,在实际的临床应用中,分析结果的临床意义易于解释和理解。等分位分组时,切点的选择是依赖于当前的研究人群,如果研究人群发生了变化,其分组的切点也会跟着发生变化;但是如果以固定的单位间距作为切点去分组,在进行临床解释时则更加便于病人理解和接受。
采用等距分组的方式进行转换,实际上并不会改变该自变量对因变量的作用大小,只是相当于放大了效应值本身的数值,从而使得结果更为好看和直观。
我们再来看一个实例,同样是JACC期刊2015年发表的文章[3],研究人员在进行统计分析时,将研究对象的年龄进行了分组转换,以60岁为起点,每间隔10岁为一组,分为<60、61-70、71-80、≥80岁共4组。结果显示随着年龄分组的增大,10年死亡率呈现逐渐上升的趋势,从9.3%增加到66.7%。研究人员也同时进一步检验了年龄每增加10岁,10年死亡率风险可增加3.43倍,OR=4.43,95% CI为3.63-5.41。
4、临床界值分组
对连续型变量进行等分位分组或等距分组时,它们对于数据本身的依赖性较强,主要适用于那些较新的研究指标,这些指标往往是探索性的,还没有或者即将应用的临床实践中,此时可以利用等分位或等距法作为分组切点的依据。
但是对于那些已经在临床中得到广泛应用的指标,指南对其已经推荐了明确的诊断切点,为了更好的用于临床解释,我们可以直接将指南推荐的诊断切点作为分组的依据来进行划分。
例如低密度脂蛋白胆固醇(LDL-C)这个指标,《中国成人血脂异常防治指南(2016年修订版)》[4]中已经明确推荐,在中国动脉粥样硬化性心血管疾病一级预防人群中,LDL-C的分层标准为:理想水平(<100mg/dl)、合适水平(100-130 mg/dl)、边缘升高(130-160 mg/dl)、升高(≥160 mg/dl),因此我们在对LDL-C进行分组转换的时候,就可以参考这个切点进行划分,做到分组的切点有理有据,才能使得自己的结果更加有说服力,更加有临床意义。
再例如在Lancet Diabetes Endocrinol期刊2017年发表的一篇文章中[5],对于维生素D这个主要研究指标,研究人员同样按照临床参考范围将维生素D划分为3组,分别为重度缺乏 (<25nmol/L) 、轻度缺乏(25-50 nmol/L)及充足水平(≥50 nmol/L),并以维生素D水平充足的一组作为参照,转化为哑变量后再带入到多重线性回归中进行比较。
5、“Free Style”分组
当然,除了按照上述分组的切点原则,将连续型变量转换为哑变量的形式外,你也可以有自己的Free Style。
对于较新颖的、非常规的指标,临床上并没有给定参考的界值,此时你可以根据自身数据的特点和分析的需要,自行设置合理的分组切点,可以尝试不同的切点分组方法,只要你的分组切点有理有据,能够说服大家,结果能够被重复出来,我们都认为这样的切点是合理的,因为真理总是在不断的尝试中才能逐渐显现出来。
就像是在制定指南的过程中,对于推荐合理的临床界值这一关键问题,专家们肯定也是进行了很多次的尝试,划分了很多切点来不停探索,最终才找出来最适宜临床应用和推广的切点值。
但是需要注意的是,当我们在尝试不同的分组切点时,如果忽然发现按照某一组的切点划分后能够得出阳性结果,P<0.05,此时也不要高兴的太早,也要考虑假阳性出现的可能性,以及结果的外推性。
切点划分的前提一定是要具有合理性,如果某种暴露/处理因素与结局之间存在一定的剂量反应关系,那么理论上这种关联性的变化趋势,即使在不同的切点分组下也是可以被重复出来的,因此我们不能为了发表一篇论文,或者为了追求P<0.05的阳性结果,就忽略了分组的合理性和实际的临床意义,Free Style切不可盲目地不断试错。
本文介绍了多种连续型变量转化为哑变量的分组形式,希望能够帮助大家更好地利用手中现有的数据,丰富自己的结果。当然连续型变量三头六臂,它的变化形式还有很多种,我们会在以后的内容中进行一一介绍。
参考文献:
[1] J Am Coll Cardiol. 2016 May 31;67(21):2480-7
[2] Am J Clin Nutr. 2015 Dec;102(6):1543-53
[3] J Am Coll Cardiol. 2015 Aug 4;66(5):511-20
[4]《中国成人血脂异常防治指南(2016年修订版)》
[5] Lancet Diabetes Endocrinol. 2017 May;5(5):367-376
更多阅读
1. 搞懂传统单因素分析和单因素回归分析的纠葛,有这篇文章就够了!
医咖会微信:medieco-ykh
关注医咖会,学习临床研究方法
有临床研究设计或统计难题?以下三种方式来帮你:
加小咖个人微信(xys2016ykf),拉你进统计讨论群和诸多小伙伴一起交流。
使用电脑进入医咖会官网:http://www.mediecogroup.com/,搜索类似问题及答案,或者直接提问!
直接点击左下角“阅读原文”,提出你的难题!